便利的R包在你进行差异分析的时候帮你做了什么

您所在的位置:网站首页 deseq2 标准化原理 便利的R包在你进行差异分析的时候帮你做了什么

便利的R包在你进行差异分析的时候帮你做了什么

2023-09-21 20:07| 来源: 网络整理| 查看: 265

DESeq2差异分析原理示意图

在对基因进行分析之前,首先要把不同的基因的表达量拉到同一个起跑线上,再做比较。转录组测序中最常用的是RPKM,FPKM,先校正测序深度和基因长度不同带来的差异,再进行分析。

但对于两个R包,它们有个共同的选择,都是用count值直接分析的,没有用RPKM或者FPKM,开发者认为基因长度并不能带来影响。那他们又是如何处理不同测序深度,文库大小带来的问题呢?

TMM和RLE标准化

两个R包都有自己的标准化的方法,分别是TMM和RLE。

1.EdgeR——TMM

TMM标准化的过程,是先过滤掉count值为0和异常样本,以参考样本的基因作为标准,对其他基因表达量进行校正。具体标准化步骤如下:

a.数据预处理

除了过滤掉在所有样本中表达量为0的基因,EdgeR还用到了CPM去过滤基因。CPM是counts per million,公式如下:

对每个基因计算过后,筛选出在两个样本以上的CPM值均大于1的基因。通过这一步,就排除掉了一些无效值,以及测序深度带来的影响。

b.选择参考样本

选定了参考样本之后,其他样本就会根据参考样本里每个基因的表达量去校正自身。通过计算每个样本的所有基因的总reads数,将每个样本中每个基因的reads除以每个样本的总reads数,校正了每个样本文库大小差异带来的影响。然后计算每个样本基因的上四分位数(Q3)的平均值,将最接近平均值的样本作为参考样本。

c.计算标准化因子

首先,计算每个样本和参考样本中相应的基因的表达量的差异倍数(相除),再取log2。然后将每个样本中的基因按这个值由大到小排序后筛选掉前后30%数据,过滤掉表达量为0的,和超过这范围的偏倚基因。

然后,计算每个样本针对参考样本计算标准化后的结果。上一步是样本和参考样本相除的结果,这一步是计算两个样本基因表达量相乘再取log2,然后除以2。其实从计算方法上看,就是算了两个样本的基因的几何平均数,几何平均数的好处就是受极端值的影响较算术平均数小。然后也是将样本中的基因按这个数值,由小到大排序,这次筛选掉前后5%数据,排除掉异常值的影响。

接下来就用这两步筛选之后的基因去计算每个样本剩余基因的log fold的加权平均数。由于reads数少的基因经过log fold转换后,变异程度比较大,所以赋予了reads数越多的基因,更大的权重值。然后计算每个样本2 加权平均数 ,得到每个样本初始的标准化因子。然后用初始标准化值/每个样本的几何平均数(基本不会改变数值),使数据中心化,得到最终的标准化因子。

d.计算标准化后的值

最终就用初始的表达矩阵中的数值/这个(千辛万苦得来的)标准化因子就可以了。

2.RLE标准化

对比着TMM的步骤,RLE也是先过滤基因,先用reads的均值进行标准化,然后用中位数进行标准化。具体标准化步骤如下:

a.过滤基因

对reads数取自然对数,之后,求同一个基因在所有样本中的数据取平均数,移除所有count值为0的基因。EdgeR在过滤的时候,算上CPM,只是移除了部分表达量为0的基因,而DESeq2是移除了在任意样本中表达量为0的基因。通过这一步,不仅去掉了表达量低的基因,而且排除掉了组织特异性的基因。

b.用reads均值校正

将上一步每个样本的基因计算得到的自然对数的值的分别减去该基因在所有样本中的均值,我们知道对数相减,其实就是原本数值相除。RLE通过这种方式,校正了测序深度。

c.用中位数标准化

计算每个样本所有基因的上一步计算得到的中位数,再用每个基因/ 𝑒^中位数,四舍五入后,得到标准化后的值。因为中位数受极端表达量的影响很少,所以RLE选择中位数作为参照。

两个软件在标准化方法上稍微对比一下就能发现一些相似和不同之处。首先,edgeR是依据四分位数挑选的参考样本,之后计算加权值作为标准化因子,而DESeq2是选择将中位数作为标准化因子,但都是为了排除掉过大或过小的异常基因的影响,此外,edgeR是选出了一个参考样本,每个样本都是针对这一样本再去标准化,而DESeq2是选择了整体去进行标准化,这看起来也算作edgeR的一点局限性了。还有其他一些对比,可以用下面这个表格总结一下。

edgeR和DESeq2标准化方法对比

输出结果解读

拿到差异分析的结果,最需要关注的几个值包括logFoldchange(logFC),PValue,FDR。logFC,就是实验组和对照组的表达量相除的结果取了log2后的值。正就是上调,负就是下调。Pvalue就是相对应的统计方法计算后的p值,结果会以科学记数法给出。FDR值,是假阳性发现率,是对P值的进一步校正。

通常将|logFC|>1,FDR



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3